#Agentic AI | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Agentic AI

春節狂飆，中國AI快進到“半人馬時代”

今年的AI春節檔，好比一場娛樂圈盛會，流量和資本雙雙引爆。先是除夕夜的春晚互動，把C端的AI紅包大戰流量推到了最高峰。登上央視春晚的豆包當日AI互動達到19億次，生成頭像與送祝福成為了一個國民級AI時刻。而在春節期間，多款AI應用在下載榜單刷出新高，紅包、免單、聊天互動等玩法，開啟了一場全民普及AI工具的“搶灘登陸”。千問、元寶等產品成為了和豆包爭搶國民級AI應用的競爭對手。伴隨著使用者側的你追我趕，一輪密集且高度同步的模型發佈也紛至沓來。春節前後兩周內，GLM-5、Doubao2.0、Qwen3.5、MiniMax M2.5等模型相繼上線，其中“Agentic AI”成為這一輪升級的主要趨勢。相比傳統LLM，新一代頭部模型普遍未選擇在參數規模上持續做大，反而在多步任務執行、多模態識別/跨應用操作、編碼能力與推理成本壓縮上都取得了長足進步。隨著Agentic AI 時代即將來臨，比拚參數規模的時代似乎已經過去，AI應用也在告別問答助手時代，轉而爭搶“執行引擎”的新藍海。這一輪春節模型大戰，很快就引發了資本市場的同步反應。節後港股開市，智譜與MiniMax股價連續大幅上漲，大量資金瘋狂湧入AI大模型類股。公開市場資料顯示，MiniMax和智譜在多個交易日創出歷史新高。兩家上市不到100天的AI龍頭股，市值紛紛突破3000億港元，超過攜程、快手等老牌網際網路企業。摩根大通在本月初發佈的報告顯示，中國AI市場正在迅速整合，“具備實力且資金充足的模型開發商數量已從超200家縮減至不足10家”。換言之，有資格在大模型領域“內卷”的，已經只剩下個位數的頭部玩家；而隨著新一代模型發佈，這些企業已經顯露出在商業化層面突破的訊號。而在使用者側，一些更具體的行業趨勢已經顯現。智譜官方此前宣佈，對其GLM Coding Plan套餐價格進行結構性調整，整體漲幅自約30%起。公司稱這是基於使用需求增長、算力投入增加而做出的調整。阿里千問在春節窗口投放大規模“請客”活動，很快轉化為巨額使用量，9小時內訂單突破千萬級，一度讓各大外賣平台“爆單”。這些“供不應求”的場面，顯示出一些AI能力已經跑通體驗階段，正式進入普通使用者的需求場景中。Anthropic首席執行長阿莫迪近期將當前的AI軟體工程形態稱為“半人馬階段”，源自希臘神話中半人半馬的生物：人類與AI組合，可能成為軟體工程裡最強的生產單元。相比上一年春節的“DeepSeek時刻”帶來的低成本訓練震撼，今年的AI春節檔，似乎已然扣動了大模型商業化的扳機。01 春節模型大戰：大廠要流量，小龍要資本體量除夕當天，阿里方面推出新一代通用大模型Qwen3.5。此前，曾有傳言稱阿里的千問（阿里雲）在與字節的豆包（火山引擎）競爭央視春晚合作夥伴時落敗。所以，選擇除夕當天發佈新模型，頗有些跟老對手打擂台的意思。如果拋開紅包大戰的熱鬧場面，只看春節前後兩周的發佈節奏，這個春節檔也是一場純粹的模型能力對決：除夕當天Qwen3.5上線；幾天前Doubao2.0升級；GLM-5、Kimi2.5、MiniMax M2.5也在同一時間段密集發佈。但當我們拆解這些模型的技術路線與商業定位時，會發現這場“春節模型大戰”其實暗含兩套邏輯。第一套邏輯屬於大廠。從能力結構看，Qwen3.5與Doubao2.0的思路高度接近：都以原生多模態為底座，不再侷限於文字問答，而是強化視覺理解、長鏈推理與工具呼叫能力，重點強調Agent執行能力。相較傳統LLM的“回答問題”，它們正轉向“拆解任務並自動完成”的路徑。更關鍵的是發佈節奏背後的產品邏輯。大廠玩家的模型升級，往往是配合著前端的產品打法。公開資訊顯示，阿里此前為了拉動千問應用增長，推出30億元“請客”活動，帶動日活成倍增長。春節當晚，字節披露豆包完成19億次AI互動，每分鐘處理多達600億tokens。對大廠而言，模型升級服務的是既有生態——電商、廣告、內容、社交仍然是收入主體。至少在春節這個流量窗口，新模型的重要作用，是鞏固旗下App的入口地位。更強的跨模態理解與多步任務執行能力，使千問與豆包在行程規劃、購物決策、自動填表、內容生成鏈路等場景中具備更高完成度。換言之，“網際網路+AI”的雙料巨頭們，想要的是流量與場景的繫結升級。而在同一時間段內，創業公司陣營的動作同樣密集，尤其是剛剛在港股上市的AI“雙子星”。智譜發佈GLM-5，延續其“強推理”路線，強化複雜邏輯、多步規劃與程式碼能力，在數學推理、程式設計基準與長上下文理解上全面升級，同時增強工具呼叫與自主任務分解能力。隨後，智譜在新模型發佈後光速漲價，將GLM Coding Plan價格上調“30%起”，給出的理由是呼叫量增長與算力投入增加。MiniMax推出M2.5，主打高頻Agent場景。官方資料顯示，其推理速度最高達100tokens/s，連續運行1小時成本約1美元。OpenRouter頁面顯示，M2.5累計呼叫量達到2.83兆tokens，一度位居榜單前列。呼叫量井噴背後，是全球開發者對Agent生態的持續熱情。隨著OpenClaw等開源Agent框架在GitHub迅速走紅，MiniMax M2.5宣佈完成適配，主動擁抱主流Agent開發生態。如果說Qwen3.5與Doubao2.0是平台級流量的較量，那麼GLM-5與M2.5更像是想要直接觸發商業化的模型產品。對字節與阿里而言，模型是生態中的重要一環；但對智譜、MiniMax、Kimi而言，模型本身就是核心業務。它們沒有廣告、電商做緩衝，模型能力必須直接對標收入曲線。因此春節窗口出現了這樣一個畫面：同樣是模型升級，大廠收穫的是流量暴增，創業公司收穫的是估值曲線上揚。節後的交易日，資本市場迅速給出回應。MiniMax和智譜一度雙雙攜手突破3000億港元市值，成為港股科技類股焦點。另一邊，月之暗面在上一輪約5億美元融資後，又推動新一輪融資，目標估值上探約100–120億美元區間。多位老股東持續加碼的同時，Kimi也緊跟著兩位上市對手的腳步。持續的市值/估值攀升下，以智譜、MiniMax為代表的AI創業公司，似乎突然一下子有了跟大廠掰手腕的資本體量。另一邊，作為AI紅包大戰的發起者，騰訊在春節窗口主要把資源放在元寶等C端產品和紅包活動上；而其基礎大模型最近一次公開的大版本升級仍是此前發佈的混元2.0。與此同時，一個更微妙的變數是DeepSeek。春節窗口內，DeepSeek並未發佈外界期待的V4版本，但此前“V4即將發佈”的傳聞，已經不斷抬高市場預期，無形中放大了這場模型大戰的聲量。那怕沒有真正入場，DeepSeek的存在感一點不少。只是，傳說中的DeepSeekV4，這一次終究要錯過春節檔了。儘管DeepSeek缺席，但這個春節的中國AI圈已經足夠精彩。不管是入口型AI還是服務型AI，都在這兩周裡賺足了流量和關注。02 為什麼說2026可能是“AI商業化元年”今年AI春節檔最明顯的變化，是模型能力方向的高度統一。儘管各家產品形態不同，但這一輪模型升級幾乎全部指向Agent形態與多模型能力。換言之，它們都瞄準了使用者願意為之付費的場景——自動執行任務、持續呼叫API的場景。這一趨勢，在OpenRouter的榜單上體現得尤為明顯。上周榜單中，呼叫tokens前五名公司裡，有四家是中國AI創業公司：MiniMax、月之暗面、智譜，DeepSeek也憑藉V3.2位居第五名。四家中國獨立AI企業將Google Gemini 3擠在了中間。其中，MiniMax M2.5憑藉對OpenClaw的全面支援以及更經濟的使用成本，來到了高達2.57兆tokens呼叫量。OpenRouter資料顯示，今年2月第一周處理的AI tokens達到13兆，而1月第一周為6.4兆，短短數周接近翻倍。這不是簡單的增長，而是行業正在發生結構性轉變。風險投資機構Lightspeed合夥人Anand Iyer在此前接受採訪時表示，近期模型呼叫激增，主要由Agent爆發式增長推動，尤其是開源Agent系統OpenClaw的迅速崛起。OpenClaw允許模型以“代理”形式自主執行任務，包括寫程式碼、呼叫工具、訪問本地檔案、操作日曆與郵件系統。相比單輪對話，Agent模式會持續呼叫模型、生成長鏈輸出，從而指數級推高token消耗。OpenClaw讓很多使用者看到了通用Agent的雛形。在二手平台上，一些適合搭載OpenClaw的mini PC產品，比如Mac mini都迎來了一波價格飛漲。從“對話式體驗”轉向“自動執行任務”，這是各大模型呼叫量指數級增長的核心原因。另一方面，2025年下半年以來，“AI泡沫論”不斷升溫。市場擔心巨額算力資本開支難以回本，訓練成本高企、推理需求不足。投入巨額資金參與AI基建的甲骨文公司，也在股價短期走高之後，迅速市值腰斬且股價持續低迷。但2026年初的春節大戰，至少在推理端給出了另一種可能性，讓市場看到了積極訊號。如果推理需求持續增長，資本開支邏輯將更加自洽。訓練成本不再只是前期沉沒成本，而是可攤銷的生產資料。智譜與MiniMax股價暴漲，本質上是市場預期推理收入能夠覆蓋訓練投入。另一個高頻落點是Coding。公開資料顯示，今年1月，多家“Vibe Coding”平台流量環比增長17%，創下自2025年4月以來最大單月增幅。Anthropic推出Claude Cowork及新版Claude Sonnet 4.6，強調“Computer Use”能力；Kimi2.5和GLM5等模型也不斷強化程式碼能力。回到智譜漲價的新聞中，GLM Coding Plan價格上調30%，說明AI行業的供需關係，似乎出現了“攻守之勢異形”的訊號：企業端和開發者的真實需求不斷湧入，付費意願也有所提升。另一邊，多模態模型也出現了“生產管線”等級的提升。春節期間，Seedance2.0生成的視訊在社交媒體廣泛傳播，各種由Seedance2.0生成的AI小劇場在使用者側快速破圈。“AIGC的童年時代，結束了。”遊戲科學CEO、《黑神話：悟空》製作人馮驥體驗Seedance2.0後，發出了這樣的感慨。不難發現，從通用Agent到Vibe Coding，再到多模態生成，這一輪模型升級不再只是參數上的做大做強，而是更接近可付費、可復購、可規模化的場景。全民歡騰，股價攀升。2026年，AI真的迎來了一個收割時刻了嗎？03 Agentic AI Era，領先一步還不是勝利春節窗口驗證了頭部AI企業在C端“全面鋪開”的動員能力——不管是面向普通使用者的紅包活動，還是面向開發者與專業使用者的模型升級，都在短時間內把熱度推到峰值。但春節檔的特殊性也決定了，這只是一次假期時間段的市場普及，而不是長期競爭力的驗收節點。最直接的因素是“鈔能力”。過去一輪春節AI熱潮，很大程度上建立在補貼、紅包、強營運節奏之上。字節、阿里、騰訊等平台型公司有能力把模型升級與前端活動繫結；當紅包大戰告一段落後，豆包、千問、元寶的日活能否維持當前水平，仍有待持續觀察。換言之，AI帶來的傳播熱度，並不意味著與產業落地能力劃等號。尤其是，一些新場景的落地，往往意味著對舊秩序的挑戰。2025年底以來，Agent領域一直在向物理世界靠攏。在Agent賽道上，OpenClaw的崛起讓人看到下一代通用Agent落地的前景。但OpenClaw需要自行部署，存在技術門檻與安全風險。Computer Use背後，是缺少統一生態下的監管和安全措施。GUI Agent的另一條路徑同樣面臨生態博弈。以豆包手機助手為代表的產品，一度讓手機廠商和AI企業，看到了打通移動端AI與物理世界界限的可能。在與努比亞合作的豆包手機助手技術驗證版上，已經出現了一次語音互動完成外賣、購物等操作。但要真正跑通Agent鏈路，必然會碰到既有App的權限、反爬、風控與商業利益邊界。超級App背後的網際網路企業們，不會輕易接受讓系統級AI以“代操作”方式介入，這背後還需要更複雜的博弈與協同。而在視訊模型領域，以Seedance等模型為代表的視訊生成能力，已經能看到進入更專業製作管線的可能性——它在短影片生產、廣告素材、創意預演等環節都有具體的發展潛力。但在Seedance2.0上線後，網上迅速流傳出“復刻”《怪奇物語》《魷魚遊戲》、漫威/星戰角色乃至明星臉的短片，引發片方集體警惕，Netflix、MPA等先後向字節發出律師函/停止侵權要求，AI視訊模型的侵權風險再一次被擺在檯面上。不過，在一些AI行業的內部視角中，AI推動人類生產力躍遷的步伐不會停止。就像此前“人機結合”的棋手能夠戰勝獨立運行的電腦一樣，如今，一個工程師與AI智能體協同工作，可能成為科技行業中最強大的單位。阿莫迪認為，這種人機混合階段可能“非常短暫”——也許只持續幾年時間。隨後，AI系統或將獨立超越最優秀的人類主導團隊。但另一方面，真正限制Agent生態發展的，似乎又不僅僅是模型能力本身。知名諮詢公司Gartner此前披露的研報中給出了這樣的判斷：到2027年，超過40%的Agent項目將宣告失敗。背後的潛在原因很簡單：成本失控、商業價值不清晰，以及智能體在運行過程中出現違反政策或帶來風險的行為，都會限制Agent生態的全面鋪開。尤其是缺少C端流量場景的模型公司，究竟能多大程度上轉化為商業上的成功，還需要更多的能力邊界探索，才能在使用者群體中沉澱為長期、穩定的需求。OpenClaw名聲大噪後，一方面吸引了全球的獨立開發者加入並體驗Agent生態；但同時Meta等科技公司也已限制或禁止OpenClaw，擔心賦予AI智能體企業系統存取權，可能帶來惡意軟體攻擊、資料洩露或操控風險。換言之，春節檔一眾模型的“炫技”確實賺足了眼球，也展示了新一代模型在Agent層面的能力突破。但以工作級需求標準而言，目前只有Coding場景實現了較好的適配，通用Agent目前的准入門檻依然較高。部署和安全管理AI Agent需要技術能力、算力資源，以及願意擁抱試驗性場景的企業文化，而許多企業尚不具備這些條件。所以，2026年春節檔也許只是新一輪“AI大戰”的起點。這背後不僅僅是AI企業之間的競爭，也意味著行業層面的能力邊界被真正推到使用者側，但真實的落地情況，需要在更長的時間窗口中觀察市場反應。頭部平台企業正在築牢AI時代的使用者流量池，獨立模型公司想要跑通商業閉環，不斷突破模型能力邊界似乎仍然是唯一的選擇。 (字母AI)

黃仁勳談過去一年AI模型的三大突破

當地時間1月21日，輝達CEO黃仁勳在達沃斯論壇上談到過去一年AI模型的三大突破。“去年AI模型層發生了三件大事。第一，模型剛開始出現時還有很多幻覺，但在去年，這些模型可以應用在研究領域了，能在沒有受過相關領域訓練的情況下進行推理、計畫並回答問題，出現了Agentic（代理式AI）。”黃仁勳表示，第二個重大突破來自開源模型，首個開源推理模型DeepSeek的推出對大多數行業和公司而言都是一個重大事件，自那時起，開源推理模型生態開始繁榮，很多公司、研究機構、教育從業者都能利用開源模型做一些事情。黃仁勳表示，第三個取得巨大進展的領域是物理AI，物理AI不僅能理解語言，還能理解物理世界，例如理解生物蛋白質、化學、物理。在物理領域，AI能理解流體動力學、粒子物理、量子物理。“去年是不可思議的一年，因為AI模型取得如此大的進步。在應用層面，AI已經可以在金融服務、醫療保健、製造業等場景使用，由此產生經濟利益。風險投資的資金去向是一個重要指標。2025年是風險投資的投資規模最大的年份之一，大部分資金流向了AI原生公司，其中一些是醫療保健公司、機器人公司、製造業公司、金融服務公司。”黃仁勳表示。與此同時，黃仁勳談到，人類歷史上最大規模的AI基礎設施建設已在進行，業內現已投入了幾千億美元，還有價值數兆美元的基礎設施需要建設。黃仁勳稱，這種規模的AI基礎設施建設是合理的，因為AI需要處理很多上下文資訊以便產生足夠的智能，來驅動上層的應用程式。這種AI基礎設施建設熱潮也帶動相關產業建設。黃仁勳表示，晶片領域，台積電剛宣佈建設20座新的晶片工廠，此外，與輝達合作的富士康、緯創、廣達將建設30座新的電腦工廠，美光等記憶體廠商也在進行相應投資。“可以看到，現在AI產業在晶片層面的增長令人難以置信。”他表示。黃仁勳也談到AI給人類工作帶來的改變。他表示，AI基礎設施建設過程中將創造大量就業機會，例如需要水管工、電工、建築工人、網路技術人員。針對人們對AI取代人類工作的擔憂，黃仁勳則舉了一個例子：10年前，人們認為放射學相關職業將被淘汰，原因是AI計算視覺可以替代這部分工作，但10年過去，AI已滲透到放射學的各個方面，放射科的醫生反而增加了，因為醫生可以利用AI更高效工作，醫院能接待的病人數量也增加了。黃仁勳表示，類似的過程也發生在護士群體中，當AI提高了工作效率，美國護士人數短缺導致的問題得到瞭解決。黃仁勳還呼籲，人們應該積極使用AI。“每個國家都應該參與到AI基礎設施的建設中。AI的易用性可能會縮小各個地方的技術鴻溝。現在AI不再那麼難訓練，將開源模型結合各地的專有知識就能建立有用的模型。”黃仁勳稱，使用AI非常容易，現在沒有電腦學位的人也能成為程式設計師，開發中國家的人們、學生群體也應該學習使用AI、指導AI、評估AI。黃仁勳還談到AI泡沫爭議。他表示，評估AI泡沫是否存在可以看GPU的使用情況。實際情況是，輝達有數以百萬計的GPU在支撐雲端運算，現在要租用一塊輝達GPU並非易事。在需求帶動下，GPU租賃價格正在上漲，價格上漲的不僅是最新版本的GPU。計算需求增加的原因是AI公司的數量正在增加，且一些公司有很多經費投入AI。 (第一財經)

中國國內首次！8.9毫秒推理速度破紀錄，1元打穿百萬token

【新智元導讀】當所有人還在為參數內卷時，智能體真正的決勝點已經轉向了速度與成本。浪潮資訊用兩款AI伺服器直接給出了答案：一個將token生成速度幹到10毫秒以內，一個把每百萬token成本打到1元時代。Agentic AI時代，已經到來！輝達GTC大會上，老黃公開表示，當AI具備了感知和推理能力時，智能體AI就誕生了。「它如同數字世界的「機器人」，本質是理解-思考-行動」。當前，AI智能體革命已至臨界點。國內外科技巨頭紛紛加速佈局，全力爭奪這一賽道主導權。據Gartner預測，到2028年，AI智能體將參與人類約15%的日常工作決策。Georgian報告也顯示，如今，91%的企業研究主管正計畫在內部鋪開Agentic AI的落地應用。然而大規模部署之前，「互動速度」與「成本控制」仍是橫亙在許多企業面前的兩大關鍵挑戰。這裡有簡單的一個案例，就足以說明一些問題。國外一支開發團隊基於Azure的OpenAI服務，建構了一個智能體。然而，隨著時間的推移，響應變得越來越慢，一次簡單查詢耗費10秒以上。當他們用OpenAI API測試完全相同的提示詞後發現：OpenAI響應時間為1-2秒，Azure則需要5-10秒。同一款模型，同一個提示詞，卻有五倍差異。要知道，智能體的互動速度，直接決定了使用者體驗的質量。如今，人們對AI響應速度的期待，已從「秒級」進化到「毫秒級」。不僅如此，成本又直接決定了智能體產業化的可行性。多智能體的協作，對低延遲和token消耗又提出了更高的要求。分毫必爭的響應速度，決定了人們是否願意買單；而真金白銀的投入，則決定了企業能否持續推動AI智能體落地。那麼，如何才能既要又要呢？在2025人工智慧計算大會上，浪潮資訊重磅發佈了兩大破局創新系統：元腦SD200超節點AI伺服器，以及元腦HC1000超擴展AI伺服器。在元腦SD200上，DeepSeek R1大模型的Token生成速度飆升至8.9毫秒，創下國內LLM推理的最快紀錄，首次將智能體即時互動帶入「10毫秒」時代。在元腦HC1000上，LLM的推理成本被前所未有地壓縮至「1元/百萬Token」，徹底擊穿規模化部署的成本天花板。Scaling Law下一站：AI智能體爆發2025年，大模型的Scaling並未放緩，而是進入了一個全新的階段。Scaling Law的焦點，早已從「預訓練」轉向了「推理」。從o3、Gemini 2.5，到Grok 4、GPT-5，全球頂尖AI不斷迭代，每一次發佈都刷新了以往SOTA。這一演進的節奏仍在加速。爆料稱，GoogleGemini 3.0、OpenAI Sora 2都將於十月初面世。反觀國內，DeepSeek R1/V3.1-Terminus、Qwen家族等開源模型，月更、周更已成為常態。在能力邊界上，LLM正從純文字，走向了融合視覺、聽覺的多模態模型，並逐步演變為一個底層「作業系統」。可以預見，AI能力將依舊會指數級增長——LLM性能越來越強，所處理的任務長度和複雜度，也在不斷提升。我們看到，Scaling Law推動的模型參數量，從百億千億向兆、甚至百兆邁進。與此同時，在後訓練階段增加算力投入，可顯著提升LLM推理能力。為何這一轉變如此重要？因為「推理」是建構Agentic AI的基礎。眾所周知，2025年，是「智能體元年」。作為LLM的核心應用形態，智能體落地進入了爆發期。在這一賽道上，Google、OpenAI、Anthropic等巨頭競相佈局。比如，OpenAI的「編碼智能體」GPT-5-Codex深受開發者歡迎；另外，還有正在內測的「GPT-Alpha」，具備高級推理、全模態，可以呼叫工具。然而，AI智能體的產業化落地並非易事。能力、速度和成本，成為了當前AI智能體產業化決勝的「鐵三角」。AI不再侷限於技術演示、實驗，而要深入場景，成為創造可衡量價值的核心生產力。這意味著，商業成功的核心已從單純追求模型能力，轉向對能力、速度、成本三者的綜合平衡。互動速度：決定智能體的商業價值在智能體時代，速度不再是錦上添花，而是生存底線。token的吞吐速度，已成為AI應用建構的「隱形計時器」。在人機互動時代，我們對AI延遲感知不強，只要響應速度跟上人類閱讀思維即可。一般來說，只要滿足20 token/s輸出速率，就能實現流暢的閱讀體驗。而現在，AI的遊戲規則徹底改變。互動主體不再是「人-機」對話，而是「智能體-智能體」的高頻博弈。延遲那怕是幾毫秒，也可能導致決策失效。而且，在規模化商業部署中，這種差異會被無限放大，形成「以快殺慢」的絕對碾壓。智能體間互動，多為「小封包」高頻通訊。這好比修了16條車道高速公路，AI只跑兩公里，巨大的頻寬對於小包傳輸如同虛設。而傳統通訊協議「上下高速」的過程，反而成了主要耗時。延遲是會層層累加的。當前智能體僅是初露鋒芒，未來網際網路將由它們主導協作。每一個互動環節的微小延遲，都會在複雜的協同網路中呈指數級放大，最終導致整個應用響應慢到無法接受。如果延遲無法降低，那就失去了商業化的可能性。舉個栗子，在欺詐防控場景中，對智能體響應速率提出了極限要求——約10毫秒。當前，DeepSeek響應速度基本在10-20毫秒左右，其他的普遍高於30毫秒。這遠不足以支援AI的高頻互動。token成本：規模化的生死線此外，token成本，是智能體能否實現規模化擴張，並且盈利的關鍵。即便模型能力卓越，若token成本無法控制在合理範圍內，高頻、並行的實際應用，將難以持續。一方面，LLM存在著「token膨脹」效應：推理前思考過程已產生上千萬token。一個複雜任務，直接讓token成本指數級暴漲。那麼，是什麼原因導致token思考數暴增？首先必須承認的是，模型本身演算法能力差異是影響因素之一。不同LLM在設計和訓練過程中，演算法架構和最佳化策略各有優劣，而最佳化程度更高的LLM可通過更高效推理路徑，在較少token消耗下完成相同的任務。其次，底層計算架構選擇路徑等，也會進而影響token成本。因為LLM運行有依賴於底層的計算架構，包括硬體加速器、分散式運算框架等等。若是計算架構無法高效支撐LLM推理需求，比如在分佈式系統中存在通訊瓶頸或計算資源分配不均，LLM可能需要生成更多token「繞路」完成任務。當前，在做AI Coding的程式設計師，每月消耗token數比一年前平均增長約50倍，達到1000萬-5億token。企業每部署一個智能體，平均token成本大概1000-5000美元。未來五年，token消耗預計增長100萬倍。可見，不論是速度，還是成本，都成為AI智能體商業化落地的最大挑戰。面對這個難題，我們該如何解？兩大核心方案，拿下速度成本難題浪潮資訊，同一時間給出了兩大解決方案——元腦SD200超節點AI伺服器元腦HC1000超擴展AI伺服器元腦SD200若要實現更低延遲token生成能力，就需要在底層基礎設施，比如架構、互聯協議、軟體框架等關鍵點上，實現協同創新。浪潮資訊新的突破，在於元腦SD200超節點AI伺服器。如前所述，DeepSeek R1在元腦SD200上token生成速度實現了8.9毫秒。目前，最接近的競爭對手，最好的資料是15毫秒。這是國內首次將智能體即時互動，帶入到10毫秒時代。為何元腦SD200能夠取得如此大的速度突破？這背後離不開團隊，融合了智能體應用和超節點開發的技術成果。首創多主機3D Mesh系統架構它可以實現單機64路本土AI晶片縱向擴展（Scale Up），提供4TB視訊記憶體和6TB記憶體，建構超大KV Cache分級儲存空間。而且，單節點即可跑4兆參數LLM，或同時部署多個協作的智能體。此外，在硬體設計上還支援了「開放加速模組」（OAM），相容多款本土AI晶片。跨主機域全域統一實體位址空間團隊還通過遠端GPU虛擬對應技術，突破了跨主機域統一編址的難題，讓視訊記憶體統一地址空間擴展8倍。它還支援拓撲動態伸縮，可按需擴展128、256、512、1024卡的規模。通過Smart Fabric Manager，元腦SD200實現了單節點64卡全域最優路由，保障了晶片間通訊路徑最短，進一步縮短了通訊延遲。最重要的是，互連協議的設計，是元腦SD200實現極低延遲的關鍵。首先，團隊採用了基建的協議棧，只有物理層、資料鏈路層、事務層三層協議，原生支援Load/Store等「記憶體語義」，GPU可直接訪問遠端節點的視訊記憶體或主存。並且，基礎通訊延遲達到了「百納秒級」。其次，浪潮資訊Open Fabric原生支援由硬體邏輯實現的鏈路層重傳，延遲低至微秒級。不依賴OS、軟體棧，它就能匹配更低延遲、更高吞吐的AI推理場景。元腦SD200還採用了，分佈式、預防式流控機制，無需丟包或ECN來感知擁塞。得益於以上高效、可靠的協議設計，元腦SD200實現了業界最低0.69微秒通訊延遲。當然了，超節點的大規模商業化應用，還必須依靠整機的高可靠的設計。為此，浪潮資訊從系統硬體層、基礎軟體層、業務軟體層，建構了多層次、可靠的保障機制。系統硬體層：全銅纜電互連，短距離緊耦合傳輸，每十億小時故障率低於「光模組互聯」方案100倍基礎軟體層：創新GPU故障資訊轉儲、跨域故障關聯定位等技術，實現全方位可觀測、全端維運自動化業務軟體層：基於Profiling性能資料啟動故障預隔離和任務自動遷移，保證業務故障預測與自癒，實現推理響應不中斷在元腦SD200上，團隊還非常強悍地實現了推理性能超線性擴展。這意味著，性能的提升幅度超過了資源投入的增加幅度。以DeepSeek R1-671B為例，從16卡擴展到64卡，實現了16.3倍超線性的擴展率！具體來看，元腦SD200將這件事做到了極致的完美：通過PD分離策略、動態負載平衡等技術，充分發揮出了超節點的架構優勢，讓系統內部的處理流程變得極其高效，資源競爭和擁堵被降到最低。最終，將通訊耗時控制在了10%以內。可以設想，在實際高並行場景下，當請求量急劇攀升時，系統能夠高效地將負載均勻分佈至各個計算單元，避免了個別節點的「擁堵」拖累整個系統的響應時間。這意味著，無論是第1個請求，還是第100萬個請求，都能獲得同樣穩定且低水平的延遲。既能「跑得快」又能「跑得多」，保證絕對極致的低時延，這就是實現規模化的生命線！基於軟體生態FlagOS，元腦SD200還能繼續相容更大的生態，主流程式碼即可直接編譯運行。當前，元腦SD200已實現對Pytorch算子的全覆蓋，AI4S的典型應用可以一鍵遷移。如下所示，64個AlphaFold 3蛋白質結構預測，即可在一台元腦SD200超節點AI伺服器同時運行。速度挑戰解決之後，token成本又該怎麼打下來？元腦HC1000為此，浪潮資訊給出的答案是——元腦HC1000超擴展AI伺服器。它基於全對稱DirectCom極速架構打造，能夠聚合海量的本土AI晶片，支援極大的推理吞吐。對於一個企業來說，在起步探索、POC階段，平台通用性更加重要，可以快速驗證想法，搶佔市場先機。這對其創新、迭代的速度，至關重要。但當它進入大規模部署階段，即應用被市場驗證，token呼叫數呈指數級增長是時，核心目標又轉變為——高效、低成本營運。而元腦HC1000，就能把推理成本打到最低1元/百萬token。全對稱DirectCom極速架構DirectCom極速架構，每計算模組配置16顆AIPU，採用了直達通訊的設計，解決了傳統的伺服器架構下，協議轉換和頻寬增強問題，實現了超低延遲。計算通訊1:1均衡配比，實現了全域的無阻塞的通訊。傳統意義上，計算與通訊是互斥關係，計算時不會傳輸，計算完成後再傳。當前，有很多將計算和通訊結合的策略，主要是把原來在傳過程，針對GPU等待時間做最佳化。除此之外，還包含了許多細粒度的任務，比如不同模型架構，不同並行情況，通訊資料區塊大小和通訊策略都要最佳化，才能提升效率。HC1000還採用全對稱的系統拓撲設計，可支援靈活PD分離、AF分離，按需配置算力，最大化資源利用率。它還支援多元算力，讓不同的晶片協同工作。超大規模無損擴展同時，HC1000支援超大規模無損擴展，實現從1024卡到52萬卡不同規模的系統建構。計算側支援DirectCom和智能保序機制，網路側支援包噴灑動態路由，實現了深度算網協同，相較傳統RoCE方法提升1.75倍。它還支援自適應路由和智能擁塞控制演算法，將KV Cache傳輸對Prefill、Decode計算實例影響降低5-10倍。總結來看，元腦HC1000是通過「全面最佳化降本」和「軟硬協同增效」，實現了高效token生產力。它不僅創新了16卡計算模組，單卡成本暴降60%+，每卡分攤系統均攤成本降低50%。而且，它採用了大規模工業標準設計，降低了系統複雜度的同時，還提高了系統可靠性，無故障執行階段間大幅延長。系統採用的DirectCom架構保障了計算和通訊的均衡，讓算網協同、全域無損技術，實現了推理性能1.75倍飆升。通過對LLM的計算流程的細分和模型結構的解耦，實現了計算負載的靈活的按需配比。單卡MFU計算效率，最高可以提升5.7倍。元腦SD200+元腦HC1000，成為浪潮資訊兩大「殺手鐧」，分別攻克了AI智能體應用速度和成本難題。那麼，下一步又該走向何方？「專用計算架構」是未來近期，OpenAI在算力佈局上，動作頻頻：先是和甲骨文簽下3000億美元大單，隨後又獲得輝達100億美元的投資。緊接著，他們又官宣了「星際之門」五大超算全新選址計畫。這一系列舉措，無不指向一個核心事實——對於LLM訓練和部署而言，算力需求始終是一個「無底洞」。當前，AI算力的可持續發展正面臨三大關鍵挑戰：工程極限：系統規模的擴展已逼近工程能力的上限。能源壓力：算力的大幅增長給電力基礎設施帶來了巨大負擔。效能失衡：算力投入和產出失衡，商業兌現處理程序緩慢。目前，市面上的「AI晶片」仍以通用晶片為主。GPU，是增加了CUDA核心和矩陣運算Tensor核心的傳統圖形計算晶片；ASIC，則是最佳化了矩陣計算和張量處理的通用矩陣計算晶片。但正如前文所述，這些基於通用計算架構的方案，正逐漸在能效比和成本效益上觸及瓶頸。僅是單純依靠堆疊更多計算單元，或是提升製程工藝的傳統路徑，難以沿著scaling Law在算力規模、能耗、成本之間取得平衡。其原因在於，通用架構雖然適用性強、易於產業化推廣，但效率低下。相比而言，應用面較窄的專用架構，則有著更高的效率。對此，浪潮資訊AI首席戰略官劉軍認為，未來的關鍵便是在於「發展AI專用計算架構」：我們必須推動發展路徑的轉變，要從一味地追求規模擴展，轉向注重提升計算效率。並以此為基礎，重新構思和設計AI計算系統，大力發展真正面向AI應用的「專用計算架構」。具體而言，就是從硬體層面來最佳化算子與演算法，定製出大模型專用晶片，進而實現軟硬體層面的深度協同最佳化，即「演算法硬體化」。只有這樣才能讓性能的Scaling，追上token的高速增長。這不僅是突破算力瓶頸的必經之路，更是推動AI產業邁向下一階段的基石。面對大模型時代，浪潮資訊的前瞻性思考為業界指明了一條方向：通過創新計算架構，讓AI更好地走向落地。 (新智元)

Agentic AI將如何改變2026年及未來的企業資料管理？

到2026年，企業管理資料的方式可能會發生翻天覆地的變化。人類不再費時費力地清洗、合併和校驗記錄，自主AI agent將承擔這些繁重任務——決定信任那些來源、即時解決衝突，並在團隊尚未意識到問題前就給出洞察。資料統一與治理前沿公司Reltio 的創始人兼首席執行官接受了媒體訪談，分享了Agentic AI 將率先落地的場景、它將如何重塑資料團隊的日常工作，以及業務領導者在邁向AI 驅動未來時應關注那些指標。eWeek：當你說企業資料的「agentic AI」時，2026 年它最先改變的日常流程會是那一個——匹配/合併、 survivorship（生存規則）、 enrichment、還是stewardship（資料監管）？Manish Sood：配對與合併將是2026 年最先被agentic AI 改造的日常工作。這裡是當今複雜資料環境與AI 營運對速度和信任需求最迫切的交會點。為什麼是匹配與合併？因為現實世界的資料很髒——充滿重複、不一致和歧義。在agentic AI 工作流程中，每次記錄不完全匹配時都沒有時間讓人工介入。如果AI agent要即時推薦產品、處理理賠或與客戶互動，它必須基於乾淨、統一的檔案運作。借助預訓練、LLM 驅動的匹配模型，我們已經看到從基於規則的「這是同一實體嗎？」檢查，轉向即時解決匹配的代理式工作流程，並附帶置信度評分、可審計性與合規護欄。隨著技術成熟，這將成為所有下游流程（survivorship、 enrichment、 stewardship 等）的智慧「前門」。agentic AI 不只是需要資料，它需要在毫秒級獲得可信、富含上下文、已整合的資料。這一切始於實體解析。因此，匹配與合併首當其衝。eWeek：快速描繪一下2026 年底資料團隊的一天。當agent介入後，資料管理員、分析負責人和業務owner 的工作有何不同？Sood：資料管理員：早上開始查看昨晚已由agent解決並附帶完整審計軌跡的配對建議。他們不再追重複，而是微調策略並「輔導」agent。分析負責人：收到agent關於品質異常的警報，趕在模型漂移前介入。工作重點從清洗資料轉向與業務團隊合作，打造可信賴、可重複使用的資料產品。業務owner：開啟儀表板，每個指標都有agent解釋：什麼改變了、為什麼重要、下一步該做什麼。沒有積壓，沒有瓶頸，只有答案──由受控、agent就緒的資料驅動。有何不同？ agent不只是“協助”，而是行動。團隊從「修資料」轉向「釋放價值」。eWeek：如何讓agent創造單一真實來源又不失去信任？Sood：失去信任並不是因為讓agent幫忙創造真實來源，而是因為它們暗中操作。關鍵在於「受控的自主」。agent可在邊界內自主行動：解決配對、標記異常、從已驗證來源enrichment。結果？透明建立信任。利害關係人不僅看到資料，還看到為何信任它──誰批准的、用了什麼邏輯、何時執行。這就是agent贏得角色的方式——不僅揭示真相，而且持續維繫真相。eWeek：首席資料長（CDO）在企業資料管理中擁抱agentic AI 的前90 天，應期待那些早期勝利？Sood：前90 天，CDO 應能指出一些非常具體的成果。例如，最先注意到的就是AI agent能以極快速度清空匹配積壓。過去資料管理員重複的活兒，現在fraction of the time 完成，讓團隊專注更高價值任務。你還能立即獲得資料品質的可視性。預置代理可按域、按源、甚至按業務影響識別問題——你不僅改善了資料，還優先修復了最關鍵的缺陷。這種清晰度幫助領導者快速建立基線並贏得早期動能。由於分析師終於不用花時間清洗資料，你會看到「洞察時間」縮短。可信任資料產品更快成型，儀表板置信度上升，KPI 重新變得可靠。最重要的是，業務團隊看到了結果：更乾淨的資料、更快的答案，以及證明這並非另一項「技術專案」——而是從第一天就交付真實業務價值。eWeek：到2026 年底，那些KPI 能證明它真的有效？Sood：到2026 年底，agentic AI 對企業資料管理的影響應該能透過幾個清晰的KPI 顯現，它們講述了一個令人信服的故事。第一，人工工作量顯著減少。需要人工覆核的匹配/合併決策佔比下降；資料管理員在重複任務上花費的小時數大幅減少；團隊用於追蹤和解決資料品質問題的時間縮短。第二，資料啟動全面提升。儀表板和資料產品更快上線；喂給AI 模型和流程的資料更可信、更即時；業務使用者能更容易在需要時找到所需資料。第三，信任變得可衡量。資料品質評分在精準度、完整性、新鮮度上提升；血緣更清晰；策略合規率提高；因壞資料或過期資料導致的返工量顯著下降。最後，業務價值加速。從銷售到營運的更多團隊開始用agent輔助決策；更多行動被自主執行且無事故；因可信即時資料而起飛的新用例增多。一句話？更少摩擦、更多信任、更快執行——且全部可追蹤。eWeek：agentic AI 如何改變與法務、安全團隊的資料治理與合規對話？Sood：agentic AI 從根本上改變了與法務、安全團隊的對話。過去擔心“失控”或“引入風險”，如今有證據證明控制其實更強。傳統治理是寫在檔案裡的政策，事後人工執行──被動、審計繁重且緩慢。有了agentic AI，這被翻轉：AI agent在執行階段就執行治理。它們繼承脫敏與存取控制，只在預批邊界內行動，且每一步都記錄完整血緣與理由。因此，當法務或安全問“我們能信任AI 在做什麼嗎？”——答案不僅是“能”，而是“這就是它做了什麼、為什麼做、我們如何知道它符合政策”。對這些團隊而言，這不是leap of faith，而是可量化的控制升級：即時執行、完全可審計、內建監督。代理式治理不是妥協，它被證明更安全。eWeek：規則、LLM 與檢索：如何協同？ agent何時應依賴確定性資料管理規則，何時應使用帶有檢索（RAG）的LLM 做決策？Sood：這不是二選一，而是確保每個AI 決策都錨定在同一個可信基礎上。agentic AI 需要一個即時、富含情境的企業資料圖譜才能可靠地行動。多數企業的客戶、產品、供應商、位置資料分散在CRM、ERP、資料湖、第三方流等數十個系統，資料分散、常孤島、不一致、非AI 就緒。Reltio 透過持續攝取所有這些來源的結構化與非結構化資料，並即時統一：利用高級匹配、 survivorship 邏輯、AI enrichment，在各域建立精準可信的檔案。但Reltio 的獨特之處不僅是產生乾淨記錄，還捕捉實體間的關係與互動——不僅知道客戶是誰，還知道他們與誰關聯、買了什麼、何時打過客服、與產品/供應商/地點如何相關。這就是「資料圖譜」。此圖譜成為AI 的「上下文系統」。它讓每個agent——無論解決配對、個人化優惠、審批理賠——都能獲得即時、可信的基礎，以做出明智決策。因此，agent不再孤立運作，而是共享相同持續更新、受控且可解釋的資料環境。這讓agentic AI 可擴展、合規、與業務邏輯對齊。所以問題不是用那一種技術，而是這些技術錨定在那裡。沒有上下文系統，再優秀的AI 也會碎片化；有了Reltio，它就能大規模可信。eWeek：自建、採購、合作的正確比例是什麼？企業應在那些場景依賴平台（如Reltio+超大規模雲端），那些場景適合客制化？Sood：在AI 與資料領域，最具創新精神的企業不會試圖全自建——而是聚焦自建差異化部分。那正確的組合是什麼？買基礎：資料統一、治理、即時基礎設施不是DIY 領地。你不想花數年拼湊自己的資料脊樑。這正是Reltio Data Cloud™ 等平台和超大規模雲端的用武之地。（壹號講獅）

【GTC大會】黃仁勳 2 個半小時演講，輝達已經進入「Agentic AI」時代

資本看空，只是在讓輝達股票更「親民」而已。「AI 屆春晚」過去以來一直是 GTC 的外號之一，但在 GTC 2025 的開幕主題演講中，這個梗被輝達創始人、愛穿皮衣的老黃「偷了」。「我覺得 GTC 已經變成了 AI 界的超級碗」黃仁勳這樣介紹 GTC 的盛況。「但在這裡，AI 會讓我們每個人都成為贏家」。在 GTC，沒有輸家好嗎｜圖片來源：輝達但面對近期股價的數次暴跌，尤其是以 DeepSeek R1 為代表的、對業內「我們真的需要這麼多 GPU 嗎」的質疑，GTC 作為「春晚」，輝達就必須拿出更多真的能鎮住場子的「硬貨」出來。雖然不知是否也是受到股價影響，今天老黃的口條，相比以往明顯要「磕巴」了不少，但他在 150 分鐘內，接連給從 AI Agent 到資料中心的 AI 晶片、再到具身智能的多個行業生態，再次指明了未來。再一次地，輝達看到了 AI 的未來，現在，他們需要讓全世界一起相信。01 Agentic 拯救輝達「It's all about Tokens」。不同往屆GTC上來先介紹輝達的硬通貨，今天的開場，老黃用40分鐘解讀了：Agentic AI時代，輝達的立身之本——越來越高效地處理tokens（詞元）。單位時間內能處理的tokens百倍萬倍增長，同時單位算力成本和能耗下降。在他看來，輝達踩中AI風口的十幾年，AI已經經歷了三代技術範式的轉移。最早是判別式AI（語音識別、圖像識別），接著是生成式AI，然後就是當下我們身處的Agentic AI，未來會是影響物理世界的Physical AI。黃仁勳秀出了 AI 技術發展的路徑｜圖片來源：輝達每一代AI技術遷移，計算的方式都會發生改變。從AlexNet到ChatGPT，是從檢索的計算方式轉變為生成的計算方式。而當AI從ChatGPT那種靠預測下一個tokens、大機率出現幻覺的生成式AI，邁向Deep Research、Manus這樣的agentic AI應用時，每一層計算都不同，所需要的tokens比想像的多100倍。因為在Agentic AI應用中，上一個token是下一個token生成時輸入的上下文、是感知、規劃、行動的一步步推理。此刻，Agentic AI就是我們現在所處的時代，AI正在經歷一個新的拐點，它變得越來越智能、應用越來越廣泛，同時也需要更多的算力來支援它。老黃用同一段提示詞下，代表兩種技術範式的開源模型——Llama3.3和Deepseek-R1所消耗的tokens舉例說明，以強化學習為主導的推理類應用，消耗了越來越多的tokens、同時也讓AI應用也變得越來越可靠。這段提示詞是：「在我的婚宴上，需要7個人圍著一張桌子坐，我的父母和岳父岳母不應該坐在一起。而且，我媳婦堅持說她坐在我左邊照相時會更好看，但同時我需要坐在伴郎旁邊。我們這一輪怎麼坐？如果我們邀請牧師和我們坐在一起呢？」DeepSeek R1 的 Reasoning 模型給出了近 20 倍於傳統大模型的 Token 量｜圖片來源：輝達如上圖左邊，Llama3.3作為大語言模型，用不到500個tokens快速回答，但安排的客人座位並不滿足要求。對比之下，右邊的R1作為推理模型，用掉8000多個tokens得出了正確答案。差別在於，左邊的大語言模型只嘗試了一次，右邊的推理模型嘗試了所有不同的可能性，然後反思、驗證了自己的答案。而且推理模型需要更多的計算，因為模型更複雜。R1的尺寸是6800億個參數，它的下一代版本可能有數兆個參數。更進一步，Agentic AI應用是無數次呼叫類似DeepSeek-R1做推理的過程，需要的計算只會更多。這也是為什麼ChatGPT可以免費、Deep Research和Operator這種agent免費不起的原因（當前OpenAI分別以20美元、200美元的價格提供服務）。用預訓練放緩來審判輝達還是太早了，因為，Scaling Law（縮放定律）的故事還沒有講完。長思考的模型對於 Token 的需求有數倍提升｜圖片來源：輝達老黃表示，除了預訓練和後訓練（微調），測試時的Scaling Law才剛剛開始。（指模型推理階段，動態分配計算資源以提升性能。例如，根據問題複雜度自動延長“思考時間”，或通過多次推理生成多個候選答案並擇優輸出）在輝達GTC的一篇官方博文中，Tokens（詞元）被視為AI的語言與貨幣。它是AI在訓練和推理過程中處理的資料單位，用在預測、生成和推理的每一個場景。在老黃看來，加速AI工作負載的新型資料中心「AI 工廠」，就是要高效地處理這些tokens，將其從AI語言轉換為AI貨幣——即智能。通過軟硬一體最佳化，以更低的計算成本處理更多tokens。如此一來，當更複雜、智能的推理模型，需要更快、更多地吞吐tokens時，如何能夠有一套軟硬兼施的計算系統讓它更加高效，就成為AI應用能不能賺錢的關鍵。這就是Agentic AI下，新黃氏定律曲線。在性能、Token 和收入的多維度曲線下，廠商依然有盈利的機會｜圖片來源：輝達而要想達到「Revenue」那個切面、讓AI應用實現商業化閉環，還得買輝達，依舊是「買得多省得多」——不，現在是「買得多，賺得多」。02 「AI工廠」的作業系統——Dynamo不久前，最瞭解輝達的「DeepSeek靠軟硬一體最佳化實現了550%的理論利潤率」新聞刷屏。別忘了，瞭解輝達的，也包括他自己。DeepSeek在Infra上的彈藥，老黃也給你配齊了！輝達此次推出了一個新的「AI 工廠」引擎的作業系統，Dynamo。有了它，tokens的吞吐和延遲還能大幅最佳化！黃仁勳講解 Dynamo 如何實現 pd 分離｜圖片來源：輝達為了讓一個更大的模型，更高效地產出更多 token，本身已經成為了一個工程學問題。如何合理利用流水線平行、張量平行、專家平行、在途批次化、pd 分離、工作負載管理，如何管理 KV cache，各家都拿出了不同的方案。輝達此次也推出了自己的方案，Dynamo。黃仁勳把這個推理服務庫比作新時代的 VMware，能夠自動編排如何讓 AI 在推理時代跑的更好——每秒能產生更多 token。接下來黃仁勳簡直在直接對需要採購輝達的資料中心喊話了：未來的每一個資料中心都會受到功耗的限制。你的營收也會受到功耗的限制，你能使用的電力就能推算出潛在營收。採用 Blackwell，你在同樣電力下，能收穫更好的性能；再加上Dynamo，Blackwell 將能進一步最佳化——Hopper 也能最佳化，但是沒那麼多。按照輝達的說法，使用 Dynamo 最佳化推理，能讓 Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全開源。引入 FP4 和 Dynamo 後 Blackwell 與 Hopper 系列晶片性能的對比｜圖片來源：輝達黃仁勳直接幫企業算起了帳：在同等功耗下，Blackwell 的性能比 Hopper 高出 4—5 倍的幅度。在「推理模型」的測試裡，Blackwell 的性能大約是 Hopper 的 40 倍。同樣的 100 兆瓦資料中心，使用 H100 需要 1400 個機架，每秒可以生產 3 億個 token，使用 GB200，只需要 600 個機架，每秒可以產生 120 億個 token。老黃：你買的越多，省的越多！100 兆瓦資料中心算帳題｜圖片來源：輝達03 不只有 Blackwell「超大杯」，還有光晶片落地在硬體領域，老黃還宣佈了其 Blackwell AI 工廠平台的下一個演進版本 ———— Blackwell Ultra，旨在進一步提升 AI 推理能力。與現存的 Blackwell 不同，據老黃介紹，Blackwell Ultra 專為 AI 推理而設計的：在 DeepSeek R1 發佈之後，目前 OpenAI o1 與 Google Gemini 2.0 Flash Thinking 都是已經上市的推理模型產品。Blackwell Ultra 具體包含 GB300 NVL72 和 HGX B300 NVL16 系統，其 AI 性能比其前代產品高出 1.5 倍。GB300 NVL72 在一個機架規模設計中連接了 72 個 Blackwell Ultra GPU 和 36 個基於 Arm Neoverse 的 NVIDIA Grace CPU。與 Hopper 一代相比，HGX B300 NVL16 在大型語言模型上提供了快 11 倍的推理速度，多 7 倍的計算能力和 4 倍的記憶體。同樣支援一道發佈的 NVIDIA Dynamo 推理框架。Blackwell Ultra 作為「超大杯」登場 | 圖片來源：輝達包括 AWS、Google雲和微軟 Azure 在內的主要科技公司和雲服務提供商，將從 2025 年下半年開始提供由 Blackwell Ultra 驅動的實例。除了 Blackwell Ultra，輝達還公佈了其 2026 年和 2027 年資料中心路線圖的更新，其中就包括即將推出的下一代 AI 晶片 Rubin（以天文學家 Vera Rubin 命名）與 Rubin Ultra的計畫組態。下一代 AI 晶片代號為 Rubin | 圖片來源：輝達Rubin NVL144 機架，將與現有的 Blackwell NVL72 基礎設施直接相容。而 Rubin Ultra 的整個機架將被新的佈局 NVL576 取代。一個機架最多可容納 576 個 GPU。除了這些相對枯燥的晶片迭代，輝達還第一次公開了其光晶片在 AI 計算領域的進展，老黃將其稱之為：「下一代人工智慧的基礎設施」矽光晶片具有高運算速度、低功耗、低時延等特點，且不必追求工藝尺寸的極限縮小，在製造工藝上，也不必像電子晶片那樣嚴苛，必須使用極紫外光刻機，也就是因為「晶片戰爭」，被大眾所熟知的 EUV。目前，輝達並未直接將光晶片技術使用者 AI 晶片上，而是與台積電（TSMC）合作，採用台積電的矽光子平台Compact Universal Photonic Engine (COUPE)，該平台使用台積電的SoIC-X封裝技術，同時結合了電子積體電路（EIC）與光子積體電路（PIC）。打造出兩款名為 Spectrum-X和Quantum-X 採用矽光子技術的交換機。隨著「人工智慧工廠」在世界各地興建，能耗與營運成本，已經成為困擾巨型資料中心繼續拓展的關鍵問題；因此輝達也在用矽光子技術，來嘗試進一步最佳化現有的巨型資料中心。這些也正是矽光子技術大顯身手的場景，矽光子晶片有潛力徹底改變資料處理速度，同時加快推動量子計算技術的發展。同時新光子技術還將為資料中心的 GPU 叢集節省數兆瓦的能源。「人工智慧工廠是一種具有極端規模的新型資料中心，網路基礎設施必須進行改造以跟上步伐。」黃仁勳這樣介紹矽光子晶片在資料中心的應用前景。Quantum-X InfiniBand 交換機採用特殊的線纜來加速運行 | 圖片來源：輝達據輝達公開的資訊，Spectrum-X 提供100Tb/s 的總頻寬，總吞吐量為 400Tb/s，並且提供每連接埠最高 1.6Tb/s 的速度 —— 是目前頂級銅纜傳輸最快速度的兩倍），連老黃自己都吐槽「這段介紹裡實在是太多 TB 了」。Quantum-X 光子 InfiniBand 交換機將於 2025 年晚些時候上市，而 Spectrum-X 光子乙太網路交換機計畫於 2026 年發佈。最後，老黃還宣佈了在 Rubin 之後的下一代 AI 晶片的架構命名 Feynman；這個名稱源自對量子計算領域有著重要貢獻的科學家 Richard Phillips Feynman，他同時也是現代量子電腦概念的奠基人，於 20 世紀 80 年代提出了量子電腦的概念。直到 2028 年的輝達 AI 晶片硬體路線圖 | 圖片來源：輝達根據老黃公佈的路線圖，Feynman 架構將於 2028 年登場 —— 或許到那個時候，我們真的能看到量子計算技術出現重大突破了。04 輝達機器人生態完整成型去年老黃在 GTC 上，伸出手臂，和一排人形機器人站在一起，已經成為經典一幕，而今年，模擬資料和機器人，仍然出現在 GTC 的各個角落中。甚至在演講的一開始，老黃的講稿中，直接就把物理 AI 放在了 AI 發展的最高點上。AI 發展的階段：後三個階段分別為生成式 AI、Agentic AI、物理 AI ｜圖片來源：輝達不過，在整個 GTC 中，單就時長而言，涉及到物理 AI 的比重，並沒有想像中的高。自動駕駛部分和機器人部分的介紹加在一起，可能不足半個小時。雖然時長不長，輝達此次的發佈，卻仍然讓人看到了輝達的野心。對於所有 AI 而言，資料、演算法和算力，都是最重要的要素。我們熟悉的生成式 AI，是在海量的網際網路文字和視訊資料中訓練出來的，輝達的貢獻，更多的在算力方面。而走到物理 AI，輝達卻是想在資料、演算法、算力上全方面發力，一個產業地圖已經呼之慾出。在算力上，輝達有之前發佈的 Orin 和 Thor 晶片。在資料上，輝達也是重要的貢獻者。物理 AI 強調讓 AI 能夠理解物理世界，而世界在過去並沒有像積累文字和視訊資料一樣，積累足夠多的 3D 環境資料。要大量產生資料，還得看輝達推動的模擬資料的進展。而通過幾屆 GTC 下來，輝達已經全面補齊了資料的生產流程：Omniverse 數字孿生環境，相當於一個超強的 3D 編輯器，能夠生成逼真的場景和物品。開發者可以根據不同的領域、機器人類型和任務，整合真實世界的感測器資料或示範資料。Cosmos 模型訓練平台，相當於一個專門為汽車和機器人搭建的虛擬世界，利用 Omniverse 訓練 Cosmos，能夠讓 Cosmos 生成無限多樣的虛擬環境，建立既受控、又具備系統性無限擴展能力的資料。兩者結合，就能產出無限多各種各樣環境、光線、佈景的虛擬模擬資料。正如下圖所示，Omniverse 中的機器人呈糖果色，主打與現實呈現數字孿生，而 Cosmos 中的佈景則可以完全變換，生成不同的佈景。Omniverse 和 Cosmos 的機器人資料效果｜圖片來源：輝達而針對人形機器人，輝達還特別推出了一系列其他的工具，比如今年主推的藍圖（blueprint）工具中的 Mega，就可以測試大規模的機器人部署的效果。輝達希望人形機器人的開發者能夠先採集一部分現實世界的資料，匯入 Omniverse 裡面，然後利用 Cosmos，將這部分現實世界的資料轉換成多樣化的虛擬資料，直接匯入輝達的 Issac Lab 中進行後期訓練——或者模仿學習複製行為，或者強化學習在試錯中學習新技能。在落地更快的自動駕駛領域，這種 Ominiverse 和 Cosmos 相互依仗的資料能力已經初見成效。此次的 GTC，輝達宣佈通用汽車（GM）已選擇與輝達合作，共同打造未來的自動駕駛車隊。除了對利用模擬環境對工廠和汽車的設計進行改進之外，輝達還將幫助通用汽車改進智駕體驗。其中，通用汽車重點看中的，應該就是 Cosmos 的整套端到端的 AI 訓練體系。3D 合成資料生成（3D Synthetic Data Generation）能夠通過 Omniverse，將日誌資料轉化為高精度 4D 駕駛環境，結合地圖和圖像生成真實世界的數字孿生，包括像素級的語義分割。Cosmos 再通過這些資料擴展訓練集，生成更多精準且多樣化的駕駛場景，縮小模擬與現實（sim-to-real）的差距。同時 Cosmos 為模型訓練也做了專門的最佳化，可以進行模型蒸餾和閉環訓練。而落地更慢的人形機器人領域，在去年到今年的 GTC 之間，我們甚至看到輝達在演算法上，也在發力。在去年發佈了 GR00T 模型之後，今年輝達發佈了 GR00T N1 模型。輝達宣佈這是全球首個開放的、完全可定製的通用人形機器人推理與技能基礎模型。Groot N1 基於合成資料生成與模擬學習的技術基礎，採用了「快思考與慢思考」的雙系統架構。其中，「慢思考」系統讓機器人能夠感知環境、理解指令，並規劃正確的行動，而「快思考」系統則將規劃轉換為精準、連續的機器人動作。Groot N1 架構｜圖片來源：輝達Groot N1 本身並不是一個重大的技術突破——之前 FigureAI的 Helix 等模型，都是採取了類似的雙系統架構。輝達很明顯，希望的是通過將一套先進的模型開源，再加上完整的合成資料生成與機器人學習管道，人形機器人開發者可以在全球各個行業的不同環境和任務場景中對 Groot N1 進行後期訓練——正如 DeepSeek 對人工智慧產業的帶動一樣。輝達在機器人領域的進展似乎一直沒有停歇，一直在不斷補齊產業鏈上的每一個空缺，速度驚人。似乎要讓機器人開發，變得像目前的 AI 應用開發一樣容易，才能停歇。專門針對機器人的研發，今年輝達還與 DeepMind、迪士尼研究院（Disney Research）共同合作，聯合推出了一款新的物理引擎 Newton。黃仁勳與迪士尼機器人互動｜圖片來源:輝達當前的大多數物理引擎都是針對特定需求設計的，例如大型機械模擬、虛擬世界或電子遊戲等，而機器人需要的，是能夠精確模擬剛體、軟體材料，支援觸覺反饋、時間序列技能學習、執行器控制，基於 GPU 加速，從而在超即時的虛擬世界中，以驚人的速度訓練 AI 模型的物理引擎。在演講的結束，一款小小的 Blue 機器人登台亮相了。Blue 機器人內建了兩個輝達晶片，而它的訓練，則是完全是在輝達的建設的訓練體系和 Newton 引擎中，通過即時模擬完成的。輝達對於機器人的投入看來不會停止，機器人演示不斷出現小故障，搶走老黃的風頭，似乎也將成為接下來幾年輝達 GTC 經常性的看點了。演講結束前的經典畫面｜圖片來源：光輪智能創始人&CEO 謝晨在GTC 主演講結束之前，老黃在影片播放的間隙，擺了一個 Pose。你可以說是隨性，但從某種意義上來看，這個經典畫面——明顯是名畫「創造亞當」的一個鏡像——可能會在以後 AI 科技的歷史中不斷出現。 (極客公園)

輝達不再是焦點了？AI交易已經變了

當下市場存在AI創新速度放緩的質疑聲，但美銀認為AI技術變革實際正在加速，而且市場焦點已經進入交易第二階段——軟體股與AI代理Agentic AI. 美國銀行在11月21日的報告中指出： AI技術快速發展，幾乎每天都有新的突破。AI能力範圍廣泛，包括完成軟體工程任務、提供客戶服務、預訂旅行，甚至可以用於精密手術或車輛組裝等。Agentic AI浪潮將催化加速開發和部署AI驅動的應用程式，以及工業和商業機器人。美銀進一步指出，隨著AI應用的普及，市場焦點也轉移到AI受益者的第二階段：